MoE架构救DLM?LLaDA-MoE与RND1,如何让语言模型更高效?
话说最近AI圈又有大新闻了!俩扩散语言模型(DLM)突然火了,一个是中国人民大学和蚂蚁集团鼓捣出的LLaDA-MoE,另一个是RadicalNumerics家的RND1。
话说最近AI圈又有大新闻了!俩扩散语言模型(DLM)突然火了,一个是中国人民大学和蚂蚁集团鼓捣出的LLaDA-MoE,另一个是RadicalNumerics家的RND1。
为展示未来趋势,阿里巴巴发布了[1] 两款新开源模型 —— Qwen3-Next 80B-A3B-Thinking 与 Qwen3-Next 80B-A3B-Instruct,为研究者和开发者社区提供对新型混合专家模型 (MoE) 架构的预览。